在合作多智能体增强学习(Marl)中的代理商的创造和破坏是一个批判性的研究领域。当前的Marl算法通常认为,在整个实验中,组内的代理数量仍然是固定的。但是,在许多实际问题中,代理人可以在队友之前终止。这次早期终止问题呈现出挑战:终止的代理人必须从本集团的成功或失败中学习,这是超出其自身存在的成败。我们指代薪资奖励的传播价值作为遣返代理商作为追索的奖励作为追索权。当前的MARL方法通过将这些药剂放在吸收状态下,直到整组试剂达到终止条件,通过将这些药剂置于终止状态来处理该问题。虽然吸收状态使现有的算法和API能够在没有修改的情况下处理终止的代理,但存在实际培训效率和资源使用问题。在这项工作中,我们首先表明样本复杂性随着系统监督学习任务中的吸收状态的数量而增加,同时对变量尺寸输入更加强大。然后,我们为现有的最先进的MARL算法提出了一种新颖的架构,它使用注意而不是具有吸收状态的完全连接的层。最后,我们展示了这一新颖架构在剧集中创建或销毁的任务中的标准架构显着优于标准架构以及标准的多代理协调任务。
translated by 谷歌翻译
The deployment flexibility and maneuverability of Unmanned Aerial Vehicles (UAVs) increased their adoption in various applications, such as wildfire tracking, border monitoring, etc. In many critical applications, UAVs capture images and other sensory data and then send the captured data to remote servers for inference and data processing tasks. However, this approach is not always practical in real-time applications due to the connection instability, limited bandwidth, and end-to-end latency. One promising solution is to divide the inference requests into multiple parts (layers or segments), with each part being executed in a different UAV based on the available resources. Furthermore, some applications require the UAVs to traverse certain areas and capture incidents; thus, planning their paths becomes critical particularly, to reduce the latency of making the collaborative inference process. Specifically, planning the UAVs trajectory can reduce the data transmission latency by communicating with devices in the same proximity while mitigating the transmission interference. This work aims to design a model for distributed collaborative inference requests and path planning in a UAV swarm while respecting the resource constraints due to the computational load and memory usage of the inference requests. The model is formulated as an optimization problem and aims to minimize latency. The formulated problem is NP-hard so finding the optimal solution is quite complex; thus, this paper introduces a real-time and dynamic solution for online applications using deep reinforcement learning. We conduct extensive simulations and compare our results to the-state-of-the-art studies demonstrating that our model outperforms the competing models.
translated by 谷歌翻译
Facebook和Twitter等社交媒体平台上的在线形象已成为互联网用户的日常习惯。尽管平台为用户提供了大量服务,但用户仍遭受网络欺凌的困扰,这进一步导致了精神虐待,并可能升级以对个人或目标群体造成身体伤害。在本文中,我们使用相关的阿拉伯语Twitter数据集将其提交给阿拉伯仇恨言论2022共享任务研讨会(OSACT5 2022)。共享任务由3个子任务组成,子任务A的重点是检测该推文是否令人反感。然后,对于进攻性推文,子任务B专注于检测该推文是否是仇恨言论。最后,对于仇恨言论推文,子任务C的重点是检测六个不同类别中的细粒度仇恨言论。变压器模型证明了它们在分类任务方面的效率,但是在小型或不平衡数据集中进行微调时的合适问题。我们通过研究多个培训范式(例如对比学习和多任务学习以及分类微调)以及我们前5名表演者的合奏来克服这一限制。我们提出的解决方案分别在子任务A,B和C中分别实现了0.841、0.817和0.476宏F1平均。
translated by 谷歌翻译
最近的自然语言处理(NLP)技术在基准数据集中实现了高性能,主要原因是由于深度学习性能的显着改善。研究界的进步导致了最先进的NLP任务的生产系统的巨大增强,例如虚拟助理,语音识别和情感分析。然而,随着对抗性攻击测试时,这种NLP系统仍然仍然失败。初始缺乏稳健性暴露于当前模型的语言理解能力中的令人不安的差距,当NLP系统部署在现实生活中时,会产生问题。在本文中,我们通过以各种维度的系统方式概述文献来展示了NLP稳健性研究的结构化概述。然后,我们深入了解稳健性的各种维度,跨技术,指标,嵌入和基准。最后,我们认为,鲁棒性应该是多维的,提供对当前研究的见解,确定文学中的差距,以建议值得追求这些差距的方向。
translated by 谷歌翻译
时间序列挖掘是数据挖掘的重要分支,因为时间序列数据普遍存在,在若干域中有许多应用。时间级挖掘的主要任务是分类。时间序列表示方法在时间序列分类和其他时间级挖掘任务中发挥着重要作用。时间序列数据最受欢迎的表示方法之一是符号聚合近似(SAX)。其受欢迎程度背后的秘密是其简单和效率。然而,SAX具有一个主要缺点,这是它无法代表趋势信息。已经提出了几种方法来使SAX能够捕获趋势信息,但这是以复杂的处理,预处理或后处理程序为代价。在本文中,我们介绍了我们呼叫趋势萨克斯(TSAX)的萨克斯的新修改,这只为萨克斯增加了最小的复杂性,而是大大提高了其在时间序列分类中的性能。这是通过实验验证的50个数据集。结果显示了我们的方法的卓越性能,因为它在与萨克斯相比的39个数据集中提供了较小的分类误差。
translated by 谷歌翻译
优先考虑体验重放是一种强化学习技术,可以通过允许代理商更频繁地重播过去的经验来加速学习。这种有用性被量化为从重播经验的预期增益,并且通常近似为在相应的经验期间观察到的预测误差(TD误差)。但是,预测误差只是一个可能的优先级度量。神经科学的最新作品表明,在生物生物中,通过增益和需求优先考虑重播。需要期限衡量每种经验对目前情况的预期相关性,更重要的是,该术语目前尚未考虑在Q-Network(DQN)等算法中考虑。因此,在本文中,我们提出了一种新方法,以确定重播经验的优先考虑增益和需求。我们通过考虑所需术语,量词,作为继承人表示,进入不同强化学习算法的采样过程来测试我们的方法。我们所提出的算法表现出基准中的性能显着增加,包括Dyna-Q迷宫和一系列Atari Games。
translated by 谷歌翻译
被证明是深度学习是一种用于建模顺序数据的有效工具,如自然语言,计算机视觉和信号处理的成功所示。过程挖掘涉及通过支持信息系统记录的执行数据来发现对业务流程的见解。记录数据(事件日志)由对应于过程的执行的事件序列(迹线)形成。许多深度学习技术已成功适用于预测过程挖掘,其旨在预测过程结果,剩余时间,下一个事件,甚至运行迹线的后缀。过程挖掘中的迹线是多模式序列,而不是自然语言句子或图像的结构非常不同。这可能需要不同的处理方法。到目前为止,几乎没有焦点这些差异,呈现挑战。看起来后缀预测作为这些任务的最具挑战性,只有在平均措施和少量现实生活事件日志中评估了深度学习模型的性能。由于不同的预处理和评估策略,比较纸张之间的结果是困难的。可能是相关的挑战是微量痕量分布的歪曲和现实事件日志中的活动分布的歪曲。我们提供了端到端的框架,可以在公共设置中比较七种最先进的顺序体系结构的性能。结果表明,序列建模仍然有大量改善大多数更复杂的数据集的空间。需要进一步的研究和见解,以获得一致的性能,不仅仅是平均措施,而且还在所有的前缀上。
translated by 谷歌翻译
由于能够产生与实际数据的显着统计相似性的高质量数据,生成的对抗性网络(GANS)最近在AI社区中引起了相当大的关注。从根本上,GaN是在训练中以越野方式训练的两个神经网络之间的游戏,以达到零和纳什均衡轮廓。尽管在过去几年中在GAN完成了改进,但仍有几个问题仍有待解决。本文评论了GANS游戏理论方面的文献,并解决了游戏理论模型如何应对生成模型的特殊挑战,提高GAN的表现。我们首先提出一些预备,包括基本GaN模型和一些博弈论背景。然后,我们将分类系统将最先进的解决方案分为三个主要类别:修改的游戏模型,修改的架构和修改的学习方法。分类基于通过文献中提出的游戏理论方法对基本GaN模型进行的修改。然后,我们探讨每个类别的目标,并讨论每个类别的最新作品。最后,我们讨论了这一领域的剩余挑战,并提出了未来的研究方向。
translated by 谷歌翻译